我们考虑使用随时间变化的贝叶斯优化(TVBO)依次优化时间变化的目标函数的问题。在这里,关键挑战是应对旧数据。当前的TVBO方法需要事先了解恒定的变化率。但是,变化率通常既不知道也不恒定。我们提出了一种事件触发的算法,ET-GP-UCB,该算法检测在线目标函数的变化。事件触发器基于高斯过程回归中使用的概率统一误差界。触发器会自动检测目标函数发生重大变化时。然后,该算法通过重置累积数据集来适应时间更改。我们为ET-GP-UCB提供了遗憾的界限,并在数值实验中显示了它与最先进算法具有竞争力,即使它不需要有关时间变化的知识。此外,如果变更率误指出,ET-GP-UCB的表现要优于这些竞争基准,并且我们证明它很容易适用于各种情况,而无需调整超参数。
translated by 谷歌翻译
在该领域,机器人通常需要在未知和非结构化的环境中操作,在这种环境中,准确的感应和状态估计(SE)成为主要挑战。相机已被用于在此类环境中以及复杂但准静态任务(例如抓紧)的映射和计划方面取得巨大成功,但很少将其集成到不稳定系统的控制循环中。学习像素到扭力的控制有望允许机器人灵活处理多种任务。尽管他们没有添加其他理论障碍,但学习需要精确且高的带宽控制的不稳定系统的像素到扭力控制仍然构成了重大的实践挑战,并且尚未确定最佳实践。为了帮助推动对学习像素到扭矩控制的实际方面的可重复研究,我们提出了一个平台,可以灵活地表示从实验室到部署的整个过程,以便在机器人上学习像素到扭矩的速度控制,以快速,不稳定动力学:基于视觉的绒毛摆。该平台可以使用现成或定制的硬件复制。我们预计该平台将使研究人员能够快速,系统地测试不同的方法,并从其他实验室重现和基准测试案例研究。我们还使用DNN进行了对该系统的第一个案例研究,据我们所知,这是对不稳定系统学习像素到扭力控制的首次演示,其更新速度比100 Hz更快。可以在https://youtu.be/s2llscfg-8e和补充材料中在线找到视频概述。
translated by 谷歌翻译
强大的控制器确保在不确定性下设计但以绩效为代价的反馈回路中的稳定性。最近提出的基于学习的方法可以减少时间不变系统的模型不确定性,从而改善使用数据的稳健控制器的性能。但是,实际上,许多系统在随着时间的变化形式表现出不确定性,例如,由于重量转移或磨损,导致基于学习的控制器的性能或不稳定降低。我们提出了一种事件触发的学习算法,该算法决定何时在LQR问题中以罕见或缓慢的变化在LQR问题中学习。我们的关键想法是在健壮的控制器和学习的控制器之间切换。对于学习,我们首先使用概率模型通过蒙特卡洛估计来近似学习阶段的最佳长度。然后,我们根据LQR成本的力矩生成功能设计了不确定系统的统计测试。该测试检测到控制下的系统的变化,并在控制性能由于系统变化而恶化时触发重新学习。在数值示例中,我们证明了与鲁棒控制器基线相比的性能提高。
translated by 谷歌翻译
变化的条件或环境会导致系统动态随着时间而变化。为了确保最佳控制性能,控制器应适应这些更改。当不明变化的基本原因和时间未知时,我们需要依靠在线数据进行适应。在本文中,我们将使用随时间变化的贝叶斯优化(TVBO)在不断变化的环境中在线调整控制器,并使用有关控制目标及其更改的适当先验知识。两种属性是许多在线控制器调整问题的特征:首先,由于系统动力学的变化,例如通过磨损,它们在目标上表现出增量和持久的变化。其次,优化问题是调谐参数中的凸。当前的TVBO方法不会明确考虑这些属性,从而通过过度探索参数空间导致调谐性能和许多不稳定的控制器。我们建议使用不确定性注入(UI)的新型TVBO遗忘策略,该策略结合了增量和持久变化的假设。控制目标通过时间结构域中的维也纳工艺建模为使用UI的时空高斯过程(GP)。此外,我们通过与线性不等式约束的GP模型明确对空间维度中的凸度假设进行建模。在数值实验中,我们表明我们的模型优于TVBO中的最新方法,表现出减少的遗憾和更少的不稳定参数配置。
translated by 谷歌翻译
释放机将现成的组件与3DPrinting结合在一起,是一种对称的反应轮独轮车,可以从任何初始位置从任何初始位置跳到其车轮上。船轮凭借非独立和散发不足的动力学以及两个耦合的不稳定自由度,为非线性和数据驱动的控制研究提供了一个具有挑战性的平台。本文介绍了车轮的机械和电气设计,其估计和控制算法以及实验在平衡时表明自我的和干扰的拒绝。
translated by 谷歌翻译
卷积神经网络越来越多地用于关键系统,在这些系统中,确保其稳健性和对齐方式至关重要。在这种情况下,可解释的人工智能领域提出了通过概念提取的高级解释产生。这些方法检测到图像中是否存在概念,但无法找到位置。此外,由于缺少适当的验证程序,因此很难对方法进行公平的比较。为了填补这些空白,我们根据通过CNN的激活图获得的表示,提出了一种新的方法来自动概念提取和定位。此外,我们介绍了一个基于合成数据集验证概念抽取技术的过程,并通过像素的主要成分进行像素注释,从而减少了人类干预。通过对合成数据集和现实世界数据集进行广泛的实验,与最先进的替代方案相比,我们的方法取得了更好的性能。
translated by 谷歌翻译
强化学习(RL)旨在通过与环境的互动来找到最佳政策。因此,学习复杂行为需要大量的样本,这在实践中可能是持久的。然而,而不是系统地推理和积极选择信息样本,用于本地搜索的政策梯度通常从随机扰动获得。这些随机样品产生高方差估计,因此在样本复杂性方面是次优。积极选择内容性样本是贝叶斯优化的核心,它构成了过去样本的目标的概率替代物,以推理信息的后来的随后。在本文中,我们建议加入两个世界。我们利用目标函数的概率模型及其梯度开发算法。基于该模型,该算法决定查询嘈杂的零顺序oracle以提高梯度估计。生成的算法是一种新型策略搜索方法,我们与现有的黑盒算法进行比较。比较揭示了改进的样本复杂性和对合成目标的广泛实证评估的差异降低。此外,我们突出了主动抽样对流行的RL基准测试的好处。
translated by 谷歌翻译
安全限制和最优性很重要,但有时控制器有时相互冲突的标准。虽然这些标准通常与不同的工具单独解决以维持正式保障,但在惩罚失败时,加强学习的常见做法是惩罚,以惩罚为单纯的启发式。我们严格地检查了安全性和最优性与惩罚的关系,并对安全价值函数进行了足够的条件:对给定任务的最佳价值函数,并强制执行安全约束。我们通过强大的二元性证明,揭示这种关系的结构,表明始终存在一个有限的惩罚,引起安全值功能。这种惩罚并不是独特的,但大不束缚:更大的惩罚不会伤害最优性。虽然通常无法计算最低所需的惩罚,但我们揭示了清晰的惩罚,奖励,折扣因素和动态互动的结构。这种洞察力建议实用,理论引导的启发式设计奖励功能,用于控制安全性很重要的控制问题。
translated by 谷歌翻译
概率模型(例如高斯流程(GPS))是从数据中学习未知动态系统的强大工具,以供随后在控制设计中使用。尽管基于学习的控制有可能在苛刻的应用中产生卓越的性能,但对不确定性的鲁棒性仍然是一个重要的挑战。由于贝叶斯方法量化了学习结果的不确定性,因此自然地将这些不确定性纳入强大的设计。与大多数考虑最坏情况估计值的最先进的方法相反,我们利用了学习方法在控制器合成中的后验分布。结果是性能和稳健性之间更加明智的,因此更有效的权衡。我们提出了一种新型的控制器合成,用于线性化的GP动力学,该动力学相对于概率稳定性缘就产生了可靠的控制器。该公式基于最近提出的线性二次控制综合算法,我们通过提供概率的鲁棒性来保证该系统的稳定性以可信度的范围为系统的稳定性范围,以基于最差的方法和确定性设计的现有方法的稳定性范围。提出方法的性能和鲁棒性。
translated by 谷歌翻译
大多数物理过程具有结构性属性,例如恒定的能量,卷和其他不变性随着时间的推移。当这种动态系统的学习模型时,尊重这些不变性是至关重要的,以确保准确的预测和物理上有意义的行为。引人注目地,高斯过程中的最先进的方法(GP)动态模型学习没有解决这个问题。另一方面,经典的数值积分器专门设计用于通过时间保持这些关键特性。我们建议将GPS的优势与具有用于动态系统的结构保留数值积分器的功能近似器,例如跳动 - 库特拉方法。这些集成商假设访问地面真理动态,并要求对基于学习的场景中未知的中间和未知的中间和未来时间步骤进行评估。这使得GP动力学的直接推动,具有嵌入式数字方案,棘爪。我们的主要技术贡献是评估隐式定义的runge-Kutta转换概率。简而言之,我们介绍了一种用于GP回归的隐式层,其嵌入到基于变分的推断的模型学习方案中。
translated by 谷歌翻译